ACE-Step 사용 가이드

1. 개요

ACE-Step 1.5는 오픈소스 음악 생성 파운데이션 모델로, 텍스트 설명을 고품질 음악 트랙으로 변환합니다.

  • 최대 4분 음악을 20초 내에 생성
  • 멜로디, 하모니, 리듬, 악기 편성, 가사(보컬) 모두 제어 가능
  • 6가지 핵심 기능: text2music, retake, repaint, edit, extend, audio2audio

2. 프롬프트 작성법

기본 구조

장르 + 분위기 + 템포 + 악기 + 편곡 + 프로덕션 노트

핵심 원칙

  • 구체적으로 - "슬픈 노래" 대신 "Sad piano ballad with female breathy vocal"
  • 3~7개 태그 - 너무 적으면 모호, 너무 많으면 혼란
  • 모순 피하기 - "ambient, metal" 같은 상충 조합 금지
  • 감정 일관성 - 가사 감정과 태그 분위기를 일치시키기
  • 형용사 활용 - warm, crisp, airy, punchy 등으로 음색 유도

좋은 프롬프트 패턴

[주 장르] with [부 장르 영향], [BPM], [주요 악기], [분위기], [구조], [프로덕션 특성]
피해야 할 것: 상충하는 장르 조합, 상충하는 감정, 7개 초과 태그, 모호한 설명

재즈 퓨전

재즈와 일렉트로닉이 결합된 인스트루멘탈

Tags

Electronic with jazz influences, 110 BPM, Rhodes piano, warm synth pads, laid-back groove, verse-chorus structure, spacious mix

인스트루멘탈 (보컬 없음)

3. 태그 시스템

장르 태그

  • 일렉트로닉: EDM, synthwave, lo-fi, ambient, house, techno, drum and bass
  • 록/메탈: rock, indie rock, punk, metal, post-rock, shoegaze
  • 팝: pop, K-pop, synth-pop, dream pop, indie pop
  • 힙합/R&B: hip hop, trap, R&B, neo-soul, boom bap
  • 재즈/블루스: jazz, smooth jazz, blues, bebop, fusion
  • 클래식: orchestral, classical, chamber music, cinematic
  • 포크: folk, acoustic, country, bluegrass

분위기/감정 태그

에너지 높음에너지 중간에너지 낮음
energetic, upbeat, aggressive, euphoricgroovy, warm, hopeful, nostalgicmelancholic, dreamy, peaceful, intimate

악기 태그

  • 키보드: piano, Rhodes, organ, synth pads, arpeggiated synth
  • 기타: acoustic guitar, electric guitar, fingerpicked guitar
  • 베이스: bass guitar, analog bass, sub bass, slap bass
  • 드럼: drums, light percussion, 808 drums, brushed drums
  • 관현악: strings, brass, orchestral, violin, cello, flute

프로덕션 태그

wide stereo mix, intimate room sound, cinematic reverb, vinyl texture, warm mix, bright chorus, retro mix

4. 가사 작성 팁

속도 규칙

  • ACE-Step은 초당 2~3단어 속도로 노래
  • 47초 트랙이면 약 90~140단어 목표
  • 한 줄에 4~8단어가 최적

구조 태그

[verse] - 절 (이야기 전개) [chorus] - 후렴구 (반복 훅) [bridge] - 브릿지 (분위기 전환) [instrumental] - 기악 구간 (보컬 없음) [outro] - 아웃트로

작성 원칙

  • 짧고 자연스러운 문장 사용
  • 복잡한 어휘나 혀 꼬이는 표현 피하기
  • [instrumental]을 섹션 사이에 넣어 다이나믹 변화 부여
  • 가사 감정과 태그 분위기를 일치시키기
팁: 가사 필드에 [instrumental]만 입력하면 보컬 없는 트랙을 생성합니다.

5. 파라미터 설정

Guidance Scale (CFG Scale)

효과
1~5자연스럽고 창의적이나 프롬프트에서 벗어날 수 있음
5~9권장 범위 - 균형 잡힌 결과
10~15프롬프트에 충실하나 거칠거나 왜곡될 수 있음

Inference Steps

높을수록 품질 향상, 속도 저하. Turbo 모델: 8, Base 모델: 32~100 권장.

Seed

  • 빈 값: 랜덤 시드 (매번 다른 결과)
  • 양수 값: 고정 시드 (동일 결과 재현 가능)
팁: 파라미터 튜닝 시 시드를 고정하면 변경한 파라미터의 실제 영향을 정확히 비교할 수 있습니다.

6. 워크플로우

6가지 핵심 기능

기능설명용도
text2music텍스트로부터 새 음악 생성처음 시작할 때
retake같은 태그/가사로 새로운 편곡다양한 버전 탐색
repaint특정 구간만 재생성약한 부분만 수정
editFlowEdit으로 의미적 편집스타일/가사 미세 조정
extend기존 오디오 길이 연장곡 확장
audio2audio기존 오디오를 변환스타일 전환

추천 워크플로우

  1. text2music으로 여러 버전 생성
  2. 가장 좋은 것 선택
  3. 약한 섹션 식별
  4. repaint로 약한 섹션만 개선된 프롬프트로 재생성
  5. edit로 가사/스타일 미세 조정
  6. extend로 필요 시 길이 연장
  7. retake로 최종 버전의 미세 변형 생성
핵심 철학: "넓게 시작하고 좁게 다듬기" - text2music + retake = 탐색 단계, edit + repaint = 정밀 단계

7. LoRA 학습

LoRA(Low-Rank Adaptation)를 통해 전체 모델을 재학습하지 않고도 특정 스타일/목소리/악기를 학습시킬 수 있습니다.

데이터 준비

  • 같은 가수/스타일의 음악 수집
  • 피처링이 많은 곡은 피하기 (학습 방해)
  • 각 오디오에 대해 태그와 가사 파일 준비

LoRA 활용

  • 프로젝트별로 LoRA 활성화/비활성화 가능
  • LoRA Weight를 조절하여 스타일 강도 제어
  • 음수 Weight는 해당 스타일 회피 효과

8. 트러블슈팅

흔한 문제와 해결책

문제원인해결
보컬이 악기를 덮음악기 태그 부족"rich instrumentation" 추가, 구체적 악기 나열
인스트루멘탈인데 보컬 나옴가사 필드에 다른 내용가사에 [instrumental]만 입력
가사가 빠르게 뭉개짐가사 너무 많음47초 기준 140단어 이하로 줄이기
왜곡된/깨진 오디오CFG 너무 높거나 LoRA 문제CFG 5~9로 조정
결과물 일관성 없음모델 특성batch로 여러 샘플 생성 후 선택

최적화 팁

  1. 시드 고정 후 한 번에 하나의 파라미터만 변경해 비교
  2. 처음에는 짧은 캡션으로 시작 후 부족한 부분에 디테일 추가
  3. Turbo 모델로 빠르게 아이디어 탐색 후 Base 모델로 최종 품질 확보
  4. 좋은 시드/결과 저장하여 나중에 재현

9. 프롬프트 예시 모음

아래 예시 프롬프트를 바로 사용하거나 참고하여 자신만의 프롬프트를 작성해보세요.

시네마틱 앰비언트

영화 같은 분위기의 드론 앰비언트

Tags

Cinematic ambient, 72 BPM, soft synth pads, distant piano, evolving drones, slow build, wide stereo mix, no vocals

인스트루멘탈 (보컬 없음)

로파이 힙합

편안한 공부/작업용 로파이 비트

Tags

Lo-fi hip hop, 88 BPM, vinyl texture, mellow Rhodes, laid-back drums, short intro, 16-bar loop, warm mix

인스트루멘탈 (보컬 없음)

신스웨이브

80년대 레트로 감성의 신스웨이브

Tags

Synthwave, 100 BPM, analog bass, arpeggiated leads, gated drums, bright chorus, retro mix, minimal distortion

인스트루멘탈 (보컬 없음)

어쿠스틱 포크

따뜻한 어쿠스틱 기타 포크 인스트루멘탈

Tags

Acoustic folk, 96 BPM, fingerpicked guitar, light percussion, intimate room sound, verse-chorus structure, no vocals

인스트루멘탈 (보컬 없음)

트레일러 스코어

영화 트레일러 스타일의 에픽 스코어

Tags

Trailer score, 120 BPM, low brass hits, pulsing strings, build to climax, dramatic risers, cinematic reverb

인스트루멘탈 (보컬 없음)

감성 발라드

감성적인 피아노 발라드 (보컬 포함)

Tags

Sad piano ballad, 68 BPM, female breathy vocal, soft strings, intimate, emotional, verse-chorus-bridge structure

Lyrics

[verse]
Standing in the rain alone tonight
Watching all the lights fade away
Every word we said still echoes here
In this empty space where you used to stay

[chorus]
I remember how it felt to fall
Into your arms like coming home
Now the silence fills these hollow walls
And I'm learning how to be alone

[bridge]
Maybe someday I will understand
Why the best things slip right through our hands

[outro]
Standing in the rain alone tonight

K-Pop 스타일

에너지 넘치는 K-Pop 댄스 트랙

Tags

K-pop, 128 BPM, synth-heavy, punchy drums, catchy hook, bright production, male vocal, energetic, dance-pop

Lyrics

[verse]
Breaking through the night we shine so bright
Every beat drops harder feel the light
Moving to the rhythm can't stop now
Show the world exactly how

[chorus]
We go up up never coming down
Turn it up up shake the whole town
Feel the bass drop through the floor
Give me more more more

[instrumental]

[verse]
Electric vibes running through my veins
Nothing gonna stop us from the game

10. 참고 자료

공식 문서

빠른 시작 체크리스트

  • 장르 + 분위기 + 템포 + 악기로 태그 구성 (3~7개)
  • 가사는 초당 2~3단어 속도 고려해서 작성
  • 감정 태그와 가사 분위기 일치시키기
  • 시드 고정하고 파라미터 하나씩 조정해 비교
  • Repaint로 약한 부분만 수정
  • 모순되는 태그 조합 피하기